class: center, middle, inverse, title-slide # Interaktioner og modelspecifikation ## Metode 3 ### Søren Damsbo-Svendsen
.white[sdas@ifs.ku.dk]
### Institut for Statskundskab
Københavns Universitet ### Uge 9 --- # I dag --- # Plan <table style="line-height: 100%; font-size: 16px; margin-left: auto; margin-right: auto;" class="table table-striped table-hover table-condensed table-responsive"> <thead> <tr> <th style="text-align:center;"> Uge </th> <th style="text-align:center;"> Dato (holdtimer) </th> <th style="text-align:left;"> Emne </th> <th style="text-align:center;"> Øvelsesopgave </th> </tr> </thead> <tbody> <tr> <td style="text-align:center;"> 6 </td> <td style="text-align:center;"> </td> <td style="text-align:left;"> Kvantitativ indholdsanalyse </td> <td style="text-align:center;"> 1 </td> </tr> <tr> <td style="text-align:center;"> 7 </td> <td style="text-align:center;"> </td> <td style="text-align:left;"> Diskursanalyse I </td> <td style="text-align:center;"> 2 </td> </tr> <tr> <td style="text-align:center;"> 8 </td> <td style="text-align:center;"> 25-26 februar 2021 </td> <td style="text-align:left;"> Diskursanalyse II </td> <td style="text-align:center;"> 3 </td> </tr> <tr> <td style="text-align:center;font-weight: bold;color: white !important;background-color: #8b2325 !important;"> 9 </td> <td style="text-align:center;font-weight: bold;color: white !important;background-color: #8b2325 !important;"> 4-5 marts 2021 </td> <td style="text-align:left;font-weight: bold;color: white !important;background-color: #8b2325 !important;"> Interaktioner og modelspecifikation </td> <td style="text-align:center;font-weight: bold;color: white !important;background-color: #8b2325 !important;"> 4 </td> </tr> <tr> <td style="text-align:center;"> 10 </td> <td style="text-align:center;"> 11-12 marts 2021 </td> <td style="text-align:left;"> Logistisk regression </td> <td style="text-align:center;"> 5 </td> </tr> <tr> <td style="text-align:center;"> 11 </td> <td style="text-align:center;"> 18-19 marts 2021 </td> <td style="text-align:left;"> Multilevel analyse </td> <td style="text-align:center;"> 6 </td> </tr> <tr> <td style="text-align:center;"> 12 </td> <td style="text-align:center;"> </td> <td style="text-align:left;"> Kausal inferens I: Designbaseret inferens </td> <td style="text-align:center;"> 7 </td> </tr> <tr> <td style="text-align:center;"> 13 </td> <td style="text-align:center;"> 1-2 april 2021 </td> <td style="text-align:left;"> Kausal inferens II: Paneldata </td> <td style="text-align:center;"> 8 </td> </tr> <tr> <td style="text-align:center;color: grey !important;"> 14 </td> <td style="text-align:center;color: grey !important;"> </td> <td style="text-align:left;color: grey !important;"> Påskeferie </td> <td style="text-align:center;color: grey !important;"> </td> </tr> <tr> <td style="text-align:center;"> 15 </td> <td style="text-align:center;"> 15-16 april 2021 </td> <td style="text-align:left;"> Kausal inferens III: Eksperimentelle designs </td> <td style="text-align:center;"> 9 </td> </tr> <tr> <td style="text-align:center;"> 16 </td> <td style="text-align:center;"> </td> <td style="text-align:left;"> Kausal inferens IIII: Regression Discontinuity (RD) </td> <td style="text-align:center;"> 10 </td> </tr> <tr> <td style="text-align:center;"> 17 </td> <td style="text-align:center;"> </td> <td style="text-align:left;"> Social Data Science: Big Data </td> <td style="text-align:center;"> 11 </td> </tr> <tr> <td style="text-align:center;"> 18 </td> <td style="text-align:center;"> 6-7 maj 2021 </td> <td style="text-align:left;"> Process tracing </td> <td style="text-align:center;"> 12 </td> </tr> <tr> <td style="text-align:center;"> 19 </td> <td style="text-align:center;"> </td> <td style="text-align:left;"> Kriterier for god videnskab </td> <td style="text-align:center;"> 13 </td> </tr> <tr> <td style="text-align:center;"> 20 </td> <td style="text-align:center;"> </td> <td style="text-align:left;"> Opsamling/spørgetime </td> <td style="text-align:center;"> 14 </td> </tr> </tbody> </table> --- # Pensum - Kellstedt, P. M., Whitten, G. D. (2018). The Fundamentals of Political Science Research. 3rd edition. Cambridge University Press. Kapitel 11.3 - Sønderskov, Kim Mannemar (2014). Stata – en praktisk introduktion (2. udg.). København: Hans Reitzels forlag. Kap. 10 --- # Formålet med i dag - At forstå, hvordan man laver og fortolker en interaktionsmodel (i Stata) --- # Vigtige begreber **Parameter** - Værdien i populationen - den sande værdi - Den værdi, som vi er interesserede i. **Estimat** (parameterestimat) - Vores bedste bud på en parameter - en værdi i populationen. - Baseret på vores data/stikprøve. **Estimator** - En statistik, der estimerer en parameter - Den fremgangsmåde der skaber et estimat - F.eks. t-test, pr-test, OLS, (senere i år: logit). --- # Statistiske modeller - en metapointe "*All models are wrong, but some are useful*" – George E.P. Box I statistisk arbejde, er det vigtige spørgsmål ikke, hvorvidt en model beskriver hele virkeligheden. - Uanset metode kan vi aldrig indfange hele virkeligheden. - Verden er alt alt for kompleks til, at kunne beskrives som den i sandhed er. - Ideal: Less is more Det vigtige spørgsmål vedrører, hvorvidt modellen er oplysende og brugbar. - Kaster den nyt lys over mønstre, som vi observerer ude i virkeligheden? En metapointe i dag er: Interaktionen kan kaste nyt lys på vores observationer af virkeligheden - prisen er at modellen bliver mindre simpel. Er det godt eller dårligt? - It depends --- # I dag skal vi snakke om interaktion - Indtil videre har I lært at undersøge gennemsnitlige effekter – hvordan Y i ’s gennemsnit afhænger af værdien på X i . Såkaldt additive modeller - Men når effekten af X på Y afhænger af en tredjevariabel Z kan de gennemsnitlige effekter blive misvisende. - Her vil en interaktion være den korrekte modelspecifikation. Altså en interaktiv model. Sønderskov skriver på side 233: - ”*Interaktion refererer til en situation, hvor størrelsen på effekten af en variabel (fx X) på en anden variabel fx(Y) afhænger af en tredje variabel (fx Z). I sådanne tilfælde taler man om, at Z modererer eller betinger X’s effekt, og at X og Z interagerer.*” - (Der står faktisk X2 og ikke Z i bogen, men jeg har ændret det for pædagogikens skyld.) --- # Lidt begrebsafklaring Der findes en del begreber, som dækker over dagens tema: - Interaktion: X interagere med Z - Moderering: X’s effekt på Y modereres af Z. - Betingede effekter: Effektstørrelsen af X på Y er betinget af Z - Heterogene treatment effekter: Effekten af X på Y er heterogen på tværs af Z’s variationsbredde Summa summarum: Alle beskriver det samme statistiske forhold - vi har multipliceret to variable, X og Z. <img src="data:image/png;base64,#m3-2_interaktion-modelspecifikation_files/figure-html/unnamed-chunk-2-1.png" width="576" style="display: block; margin: auto;" /> --- # Additive modeller (I) - Indtil nu har vi arbejdet med såkaldt additive modeller, hvor det antages, at effekten af X på Y (b’erne) er konstant for alle værdier af de øvrige uafhængige variable i modellen. - Vi har således estimeret en gennemsnitseffekt af X for alle enheder. <img src="data:image/png;base64,#m3-2_interaktion-modelspecifikation_files/figure-html/unnamed-chunk-3-1.png" width="504" style="display: block; margin: auto;" /> Hældningerne er ens – det betyder, at effekterne er de samme for begge grupper (Z) --- # Additive modeller (II) En bivariat model: `\(Y_i = ß_0 + ß_1*X_{i1} + \epsilon_i\)` En multivariat model: `\(Y_i = ß_0 + ß_1*X_{i1} + ß_2*X_{i2} + ß_3*X_{i3} + ... + \epsilon_i\)` - Hvad udtrykker alle disse led? - Hvad er forskellen på den bivariate og den multivariate model? --- # Øvelsesopgave 7.1 (I) Her bliver I bedt om at estimere en additiv model - som I lærte på metode 2. Quality of Government-datasættet (QoG) X: sproglig fragmentering (fe_cultdiv) Y: gennemsnitlige tillid til andre mennesker (wvs trust) Kontrol: - BNP (gle_gdp) - Andelen af protestanter (lp_protmg80) - Andelen af katolikker (lp_catho80). `\(Tillid_i = ß_0 + ß_1 Fragmentering_i + ß2 BNP_i + ß3 Protestanter_i + ß4 Katolikker + \epsilon_i\)` --- Øvelsesopgave 7.1 (II) Lad os kigge på variablene først: <img src="data:image/png;base64,#media/stata7.1.png" width="1208" style="display: block; margin: auto;" /> Sproglig fragmentering (fe_cultdiv): skala fra 0-1, hvor 1 = høj fragmentering Gennemsnitlige tillid til andre mennesker (wvs_trust): skala fra 0-1, hvor 1 = høj tillid --- # Øvelsesopgave 7.1 (III) <img src="data:image/png;base64,#media/stata7.1b.png" width="1023" style="display: block; margin: auto;" /> Fortolk outputtet: - Er der en sammenhæng mellem sproglig fragmentering og tillid? - Hvad kan vi sige om den samlede model? ($R^2$ , `\(R^2\)` , F-statistik) ??? Svar: --- # Den interaktive model I denne interaktive model er der tre variable, X, Y og Z: `\(Y_i = ß_0 + ß_1 X_{i} + ß_2 Z_{i} + ß_3 X_i Z_i +\epsilon_i\)` Interaktionsled: - `\(ß_3 X_i Z_i\)` - `\(ß_3\)` er den gennemsnitlige interaktionseffekt! Altså hvordan X’s effekt på Y i gennemsnit ændres af Z. Konstituerende led (også kaldet hovedled): - `\(ß_1 Xi\)` - `\(ß_2 Zi\)` Koefficienten, f.eks. β 1 for et konstituerende led, X i , vil udtrykke variablens effekt på Y i , når det andet konstituerende led, Z i holdes på (er lig med) 0. Bemærk det er langt fra altid, at de konstituerende led har en meningsfuld tolkning! --- # Den interaktive model ## Varierende hældning = varierende effekt (afhængigt af Z) <img src="data:image/png;base64,#m3-2_interaktion-modelspecifikation_files/figure-html/unnamed-chunk-6-1.png" width="504" style="display: block; margin: auto;" /> --- # Interaktionsleddet `\(Y_i = ß_0 + ß_1 X_{i} + ß_2 Z_{i} + ß_3 X_i Z_i +\epsilon_i\)` Koefficienten/estimatet for interaktionsleddet: - Fortegn: Retning som effekten ændrer sig, når den modererende variabel ændres med +1 - Størrelse: Hvor meget effekten ændrer sig, når den moderende variabel ændres med +1. Når vi estimerer skal vi blot lægge interaktionsleddet til eller fra vores hovedled. Med metriske variable: - Interaktionsleddet er den gennemsnitlige interaktion. Altså om Z i gennemsnit modererer X’s effet på Y. - Dvs: Der kan givetvis være niveauer på Z moderationen ikke er signifikant! --- # Interaktionsmodellen i Stata Interaktive modeller implementeres nemt i Stata. Ønsker vi at interagerer to variable, f.eks. X i og Z i , tilføjer vi blot X##Z til vores regressions-kommando. Og i den forbindelse skal vi huske: Man skal (som regel) angive måleniveauet for X i og Z i , så Stata ved hvordan de to variable skal behandles. - Kategorisk/dummy variabel: i.variabelnavn - Kontinuert (intervalskaleret): c.variabelnavn Eksempler: Når X er kategorisk og Z er kategorisk: **reg y i.x##i.z** Når X er kategorisk og Z er kontinuert: **reg y i.x##c.z** # Øvelsesopgave 7.2 (I) Undersøg dernæst vha. en interaktionsmodel om befolkningens toleranceniveau (wvs tol) modererer effekten af sproglig fragmentering. Fortolk resultatet. . wvs tol går på en kontinuert skala fra 0 - 2 hvor 2 er meget tolerant. `\(Tillid_i = ß_0 + ß_1 Fragmentering_i + ß2 BNP_i + ß3 Protestanter_i + ß4 Katolikker + ß5 Tolerance_i + ß6 Fragmentering_i * Tolerance_i + \epsilon_i\)` <img src="data:image/png;base64,#m3-2_interaktion-modelspecifikation_files/figure-html/unnamed-chunk-7-1.png" width="576" style="display: block; margin: auto;" /> --- # Øvelsesopgave 7.2 (II) <img src="data:image/png;base64,#media/stata7.2.png" width="1213" style="display: block; margin: auto;" /> - Er der en interaktion? - Hvad er koefficienten for sproglig fragmentering (X), når tolerance er 0? - Hvad er interaktionsleddets koefficient? Altså ændringen for X, når Z stiger? --- # Øvelsesopgave 7.2 (III) Her er et margins output, som estimerer sproglig fragmenterings effekt på tillid, når tolerance er hhv. 0, 1 og 2. <img src="data:image/png;base64,#media/stata7.2b.png" width="885" style="display: block; margin: auto;" /> --- # Øvelsesopgave 7.2 (IV) Kan I genkende nogle tal fra før? <img src="data:image/png;base64,#media/stata7.2c.png" width="1102" style="display: block; margin: auto;" /> --- # Øvelsesopgave 7.2 (V) <img src="data:image/png;base64,#media/stata7.2d.png" width="327" style="display: block; margin: auto;" /> --- # Øvelsesopgave 7.3 (I) Lad os visualisere! (altid en god id´e med interaktioner). Men først denne: <img src="data:image/png;base64,#media/stata7.3.png" width="444" style="display: block; margin: auto;" /> --- # Øvelsesopgave 7.3 (II) <img src="data:image/png;base64,#media/stata7.3b.png" width="296" style="display: block; margin: auto;" /> --- # Øvelsesopgave 7.3 (III) <img src="data:image/png;base64,#media/stata7.3c.png" width="241" style="display: block; margin: auto;" /> --- # Øvelsesopgave 7.3 (IV) Alternativt plot, hvor Y-aksen igen udtrykker værdien for Y - som vi er vant til. Nu har vi sammenhængen, men for tre forskellige niveauer af tolerance: 10. percentil, median og 90. percentil. <img src="data:image/png;base64,#media/stata7.3d.png" width="296" style="display: block; margin: auto;" /> --- # Øvelsesopgave 7.4 # Kausalitet? I hvilken grad er kriterierne for kausalitet overholdt? 1. Empirisk sammenhæng (samvariation) 2. Teoretisk sammenhæng 3. Tidslig rækkefølge 4. Fravær af spuriøsitet --- # En statistisk pointe Valget mellem uafhængig ( `\(X_i\)` ) og modererende ( `\(Z_i\)` ) variabel er teoretiske valg -- et spørgsmål om synsvinkel. I ikke-eksperimentelle situationer kan vi ikke skelne empirisk mellem de to. - Hvorfor? --- # Hvorfor ## og ikke # i Stata? (I) Fordi ## automatisk giver os hovedleddene OG interaktionsleddene. Hovedleddene giver os koefficienterne for, hvordan X hhv. Z påvirker Y, når den anden variabel er holdt på 0. Interaktionsleddets koefficient kan vi lægge til eller trække fra hovedleddenes koefficienter. Så hvorfor ikke bare køre med #? Fordi det netop udelader hovedleddene. I den forbindelse vil vi komme til at antage, at: - Begge hovedled er præcis 0 - ... og dette er tilmed estimeret uden statistisk usikkerhed! Bl.a. fordi hovedleddene nærmest pr. definition er korreleret med interaktionsleddet, betyder det noget for estimatet af interaktionsleddet. Det betyder, at vi meget ofte vil få et biased interaktionsestimat, hvis man kun bruger #. --- # Hvorfor ## og ikke # i Stata? (II) <img src="data:image/png;base64,#media/stata##.png" width="317" style="display: block; margin: auto;" /> --- # Opsummering Interaktive-modeller er fede, men også svære. Der kan gemme sig rigtig meget information i interakive modeller. - Kaster lys over hvordan effekten varierer på tværs af subjekter eller: - Ultimativt hvordan en tredjevariabel Z, modererer X’s effekt på Y. I sidste ende kan interaktive modeller dog: - Nuancere kausale påstande - ”prisen” er selvfølgeligt en mere kompliceret model som er sværere at tolke (og større risiko for *p-hacking*). - Give en bedre id´e om den kausale mekanismen --- # Næste gang - Logistisk regression (logit) En ikke-lineær generalisering af OLS, hvor den afhængige variabel er binær – 0 eller 1. - Tager højde for ‘gulv’- og ‘loft’- effekter – dvs. det faktum, at der skal mere til for at score 1, hvis sandsynligheden allerede er høj. - En række fordele ift. at bruge OLS på binære variable – men også ulemper. --- # Tak for i dag!